【glossary】学習率(learning rate)
学習率(learning rate)とはモデルが学習する速さを制御するパラメータのことです。
学習率とはニューラルネットワークの学習プロセスにおいて各パラメーターがどれだけ素早く学習されるかを制御するハイパーパラメータの事です。GPTのような深層学習モデルでは、損失関数(loss function)を最小化するためにパラメーター(重みとバイアス)が更新されます。
学習プロセス中にモデルが訓練データからエラー(損失)を計算します。このエラーをバックプロパガーション(逆伝播)アルゴリズムを用いて各パラメータに対するエラーの勾配(gradient)を計算します。この勾配によりパラメータを更新します。学習率はパラメータの更新量を制御します。
学習率が大きいと訓練は速く進みますが、損失関数の最小値を通り越してしまう可能性があります。逆に学習率があまりにも小さいと訓練は非常に遅くなり、全体としての学習が不十分になったり、局所最小値で停止してしまうことがあります。
以上で分かるとおり、学習率はモデルの訓練と性能に大きく影響します。ゆえに学習率の調整は重要な課題の一つです。一般的には、学習率はエポック(全データを一度学習する周期)ごとに調整されるのが効率的です。